Warning: mkdir(): No space left on device in /var/www/tg-me/post.php on line 37

Warning: file_put_contents(aCache/aDaily/post/ds_interview_lib/--): Failed to open stream: No such file or directory in /var/www/tg-me/post.php on line 50
Библиотека собеса по Data Science | вопросы с собеседований | Telegram Webview: ds_interview_lib/971 -
Telegram Group & Telegram Channel
🗨 Когда стоит рассматривать разбиение датасета вместо применения глобального преобразования

В тех случаях, когда в датасете присутствуют разные подгруппы с различными распределениями.

🔍 Пример:
Если есть данные о доходах из разных регионов. Один регион — с высоким уровнем доходов, другой — с низким. В совокупности распределение выглядит сильно смещённым или даже мультимодальным (несколько пиков).

В такой ситуации попытка применить глобальное преобразование (например, логарифм или Box-Cox) ко всему датасету сразу не устраняет проблему. Это всё ещё не одно распределение, а смесь разных.

Что делать:
📍 Разбить данные на логически обоснованные подгруппы (по региону, демографии, сегменту бизнеса и т.д.).
📍 Применить отдельные преобразования или даже обучить отдельные модели для каждой подгруппы.
📍 При необходимости объединить результаты анализа или прогнозы обратно.

Что важно учитывать:
📍 Разделение должно быть обосновано теоретически или доменной экспертизой. Разделение «наугад» может привести к переобучению или утечке информации.
📍 Объём данных в каждой подгруппе должен быть достаточным для построения статистически надёжных моделей или трансформаций.

Вывод:
Если данные представляют собой смешение разных источников или популяций, лучше работать с ними отдельно. Глобальные методы нормализации или преобразования могут маскировать настоящую структуру данных, а значит — вести к ошибочным выводам или неэффективным моделям.

Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM



tg-me.com/ds_interview_lib/971
Create:
Last Update:

🗨 Когда стоит рассматривать разбиение датасета вместо применения глобального преобразования

В тех случаях, когда в датасете присутствуют разные подгруппы с различными распределениями.

🔍 Пример:
Если есть данные о доходах из разных регионов. Один регион — с высоким уровнем доходов, другой — с низким. В совокупности распределение выглядит сильно смещённым или даже мультимодальным (несколько пиков).

В такой ситуации попытка применить глобальное преобразование (например, логарифм или Box-Cox) ко всему датасету сразу не устраняет проблему. Это всё ещё не одно распределение, а смесь разных.

Что делать:
📍 Разбить данные на логически обоснованные подгруппы (по региону, демографии, сегменту бизнеса и т.д.).
📍 Применить отдельные преобразования или даже обучить отдельные модели для каждой подгруппы.
📍 При необходимости объединить результаты анализа или прогнозы обратно.

Что важно учитывать:
📍 Разделение должно быть обосновано теоретически или доменной экспертизой. Разделение «наугад» может привести к переобучению или утечке информации.
📍 Объём данных в каждой подгруппе должен быть достаточным для построения статистически надёжных моделей или трансформаций.

Вывод:
Если данные представляют собой смешение разных источников или популяций, лучше работать с ними отдельно. Глобальные методы нормализации или преобразования могут маскировать настоящую структуру данных, а значит — вести к ошибочным выводам или неэффективным моделям.

Библиотека собеса по Data Science

BY Библиотека собеса по Data Science | вопросы с собеседований


Warning: Undefined variable $i in /var/www/tg-me/post.php on line 283

Share with your friend now:
tg-me.com/ds_interview_lib/971

View MORE
Open in Telegram


Библиотека собеса по Data Science | вопросы с собеседований Telegram | DID YOU KNOW?

Date: |

Spiking bond yields driving sharp losses in tech stocks

A spike in interest rates since the start of the year has accelerated a rotation out of high-growth technology stocks and into value stocks poised to benefit from a reopening of the economy. The Nasdaq has fallen more than 10% over the past month as the Dow has soared to record highs, with a spike in the 10-year US Treasury yield acting as the main catalyst. It recently surged to a cycle high of more than 1.60% after starting the year below 1%. But according to Jim Paulsen, the Leuthold Group's chief investment strategist, rising interest rates do not represent a long-term threat to the stock market. Paulsen expects the 10-year yield to cross 2% by the end of the year. A spike in interest rates and its impact on the stock market depends on the economic backdrop, according to Paulsen. Rising interest rates amid a strengthening economy "may prove no challenge at all for stocks," Paulsen said.

What is Telegram Possible Future Strategies?

Cryptoassets enthusiasts use this application for their trade activities, and they may make donations for this cause.If somehow Telegram do run out of money to sustain themselves they will probably introduce some features that will not hinder the rudimentary principle of Telegram but provide users with enhanced and enriched experience. This could be similar to features where characters can be customized in a game which directly do not affect the in-game strategies but add to the experience.

Библиотека собеса по Data Science | вопросы с собеседований from ms


Telegram Библиотека собеса по Data Science | вопросы с собеседований
FROM USA